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2 E. DEFRISE-GUSSENHOVEN. — DISCRIMINATION 


INTRODUCTION. 


A tous les échelons du régne animal, on trouve des popula- 
tions difficilement dissociables, Nous nous proposons d’exposer 
ici des méthodes de discrimination de populations voisines. 

Des populations voisines pourront étre, selon le cas, des 
populations appartenant à des genres voisins, des espèces, des 
variétés ou des races voisines. Les sujets considérés sont tou- 
jours supposés très ressemblants, difficilement 
dissociables. 

Il est essentiel de distinguer nettement deux cas, suivant 
que tous les sujets viennent d’une source unique ou de sources 
différentes ; nous emploierons ici le mot « échantillon » pour 
désigner un ensemble de sujets provenant d’une source déter- 
minée. 

Les sujets de deux échantillons (de provenances distinctes) 
peuvent fort bien ne présenter aucune différence significative 
de nature morphologique ou physiologique, alors qu’une telle 
différence peut exister entre des sujets de provenance unique. 

Cette note a pour but de décrire les méthodes graphiques et 
statistiques qui servent, soit à comparer deux échantillons, 
soit à découvrir si un échantillon unique provient d’une popu- 
lation mixte. 

Dans le premier cas, nous ne ferons guère que rappeler des 
méthodes classiques ; nous nous étendrons plus longuement sur 
le second cas, qui, à notre connaissance, n’a jamais été traité. 

Les critères de discrimination proposés sont essentiellement 
basés sur la représentation graphique de certaines mensura- 
tions. Une fois mis au point, ils permettent de classer de 
nouveaux spécimens aussi rapidement que n’importe quel autre 
critère taxonomique, mais avec une plus grande sécurité. Les 
calculs, introduits là seulement où ils sont indispensables, ne 
nécessitent pas de connaissances mathématiques approfondies. 

Nous avons ainsi taché de réunir, dans un article directement 
utilisable par les systématiciens, les méthodes biométriques 
applicables à différents problèmes concrets qui nous ont été 
posés, dans le domaine de la discrimination de populations 
voisines. 


§ I. — GENERALITES. 
1. UN ÉCHANTILLON OU DEUX ÉCHANTILLONS. 


Nous croyons qu'il n’est pas inutile de bien préciser la dis- 
tinction entre : 
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Deux échantillons. 


Nous dirons ici que deux 
groupes d'individus sont de 
provenance différente ou qu’ils 
constituent deux échan- 
tillons lorsqu'ils sont ré- 
coltés en des temps ou en des 
lieux distincts, ou encore lors- 
qu'ils se distinguent par leur 
genre de vie. 


Exemples. 


1. Fossiles de méme age re- 
cueillis en des pays distincts, 
ou bien en une méme région 
mais sur des terrains de com- 
position non identique, ou 
encore des fossiles d'âges géo- 
logiques différents. 


2. Insectes habitant la même 
région, mais se distinguant 
par leur genre de vie (date 
de l’hymen, nourriture, etc.), 
ou bien insectes de régions 
différentes. 


3. Animaux pêchés en deux 
endroits éloignés ou encore à 
un même endroit mais à des 
époques différentes de l’année. 
ou bien toujours à la même 
saison mais (années consécu- 
tives. 


4. Peuplades habitant la 
même région, mais au sein 
desquelles existe une scission 
gardée intacte, barrière reli- 


. 


gieuse ou sociale, ou encore le 


DS 


souvenir d’origines distinctes 
respectées par un système de 
caste. 


etc. 


Un échantillon. 


Lorsque ni le genre de vie, 
ni le temps, ni l’espace ne 
séparent les sujets à analy- 
sel, nous sommes en pré- 
sence d’un échantillon 
unique. Tous les sujets sont 
de même provenance. 


1. Fossiles récoltés au même 
endroit et dans une même for- 
mation (s. S.). 


2. Insectes pris le même jour 
sur les mêmes plantes d’une 
même région. 


© 


3. Animaux péchés au même 
endroit à la même date. 


4. Habitants d'une même 
agglomération, au sein des- 


quels n'existent pas de telles 
barrières. 


etc. 
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La distinction entre le cas d’un échantillon et le cas de deux 
échantillons nous semble essentielle dans toute analyse discri- 
minatoire ; elle se reflète à la fois dans les méthodes à utiliser 
et dans l’interprétation des résultats. 

L'identité ou la différence d’origine est une donnée objective 
à priori, dont il est fondamental de tenir compte, avec toutes 
ses implications. Ainsi notamment, les sujets d’un échantillon 
ont eu la possibilité de se croiser, au contraire des sujets 
d'échantillons distincts. 

Soulignons, comme les exemples ci-dessus Villustrent, que 
des critères morphologiques ou physiologiques ne peuvent inter- 
venir dans la séparation en deux échantillons. Il n’est pas 
permis, au moyen de tel ou tel critère physique, d'opérer une 
coupure en deux lots au sein d’un échantillon unique, et de 
traiter ces deux lots comme deux échantillons. Cette coupure 
faite à posteriori par le naturaliste, d’ailleurs plus ou moins 
subjective et imparfaite, n’a rien de commun (notamment du 
point de vue génétique) avec la différence de provenance de 
deux échantillons. 

Si nous insistons sur ce point, c’est que la confusion est 
cependant assez fréquente. Elle s'explique sans doute en partie 
par le désir du naturaliste d'utiliser les tests classiques de 
divergence applicables à deux échantillons : il les applique 
alors parfois à deux lots d’un échantillon unique, ce qui risque 
de le conduire à des conclusions biologiquement fausses ou 
dénuées de sens. 

Supposons que des souris grises sauvages et des souris blan- 
ches soient attrapées au même endroit. En les séparant en 
deux lots suivant leur couleur, on fait une discrimination 
superficielle, En effet, comme les deux races primitives ont 
eu l’occasion de se croiser, on peut craindre que seul le lot 
des souris blanches forme une race pure pour la teinte (bb), 
et qu’à côté des grises pures (GG), il y ait des grises hétéro- 
zygotes (Gb) (1). C’est pourquoi cet ensemble de souris grises 
et blanches doit être considéré comme une seule population, 
notamment pour l’étude d’autres caractères que la couleur. 

Bien différent est le cas d’un échantillon de nombreuses 
souris grises trouvées sans aucune souris blanche, et que l’on 
compare avec des souris blanches prises en un autre endroit. 
Ici, on est sûr que les sujets des deux lots ne sont pas proches 


(1) Guyénot, E. (1931, p. 44). 
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parents; on compare réellement deux races de souris : les 
grises et les blanches. 


2. CARACTERES CONTINUS OU DISCONTINUS. 


Toute discrimination de populations utilise un certain nombre 
de caractéres des sujets donnés. Les méthodes varient suivant 
qu’il s’agit de caractères continus ou discontinus. 

A. — Un caractère continu est mesurable (ou repérable) par 
un nombre qui varie, avec les sujets, d’une façon (pratique- 
ment) continue entre deux valeurs extrêmes; il est représenté 
par une variable continue #. Par exemple : la taille des hommes. 

Donnée directe de l'expérience, l’histogramme (fig. 1) indique 
la distribution du caractère dans l'échantillon; on en déduit, 
par le calcul, la distribution probable dans la population totale. 


l4| 9 
Bins 
PRE 
NES 


x 
Fig. 1. — ———— histogramme; distribution de æ dans l’échan- 
DDlOnN Tee Courbe normale; distribution de x dans la popu- 


lation supposée normale. 


L’allure de Vhistogramme, le nombre de ses modes, sa 
moyenne, sa déviation standard sont autant de renseignements 
sur la composition de l'échantillon. 

Rappelons que la variation continue d’un caractère s'explique 
par l’action simultanée de facteurs mésologiques et de facteurs 
génétiques, souvent nombreux. Dans une race pure (ou dans 
une lignée pure chez les plantes), seuls les facteurs extérieurs 
provoquent la variation continue (2). 

Pour envisager simultanément plusieurs caractères continus, 
on peut procéder de deux façons : 


(2) GUYÉNOT,E., (1950, p. 517). 
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19 On établit la fonction de distribution simultanée de 
toutes les variables, par exemple x, y, 2, t. Cette fonction 
fournit une description complète des variables et de leurs 
corrélations. 

Malheureusement, il est difficile de l’établir avec précision ; 
de plus, elle ne se prête pas à une représentation graphique, 
si commode, notamment pour découvrir la présence de deux 
modes. 

2° Aussi, pour réduire le nombre de variables, on préfère 
souvent former des fonctions simples telles que # = oe ant 

y 
(liées à des observations biologiques) et Von considère u, © 
comme coordonnées d’un graphique a double entrée. L’infor- 
mation que l’on perd en combinant chaque fois deux (ou éven- 
tuellement plusieurs) variables en une seule est compensée par 
l'efficacité de l'analyse d’un tel graphique. 

Il faut toutefois songer à évaluer les erreurs de mesure sur 
u et sur v qui risquent d’être plus grandes que celles des varia- 
bles primitives. 

Lorsque l'échantillon contient, à côté des adultes, des sujets 
jeunes, ou si les animaux sont à croissance continue, il est 


£ 
particulièrement utile de former des rapports comme —. 
y 

B. — Un caractère discontinu (ou discret) permet de 


séparer l’ensemble des sujets en un nombre fini (pratique- 
ment petit) de catégories nettement tranchées A,, As, ..., A,. 
Ceci peut se ramener à une suite de dichotomies : on distingue 
d’abord les A, des € non A, »; puis, parmi ces derniers, les A, 
et les « non A, », et ainsi de suite. 

Il nous suffira done d'envisager des dichotomies, où l’on 
sépare les sujets en « A » et « non A », suivant qu’ils possèdent 
ou non le caractère A. 


Exem pleas 


1. Chez l’homme, le sang de certains sujets contient le fac- 
teur sérologique P (A), le sang des autres ne contient pas ce 
facteur (non A) (3). 

2. Les deux espèces de Coléoptéres Chrysomélides : Chryso- 
lina menthastri et Chrysolina cœwrulans, étudiés par P. JOLIVET, 


(3) GATES, R. R.,(1946, p. 697). 


OMC A We ON EN CO NOMME) 


— 
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très ressemblants d’ailleurs, sont, les uns verts (A), les autres 
bleus (non A). 

Il faut toujours qu'entre les deux catégories existe une 
frontière nette, de sorte que la proportion des cas douteux 
n'excède en aucun cas un pourcentage très faible qu'il faut 
s'imposer d'avance d'après la nature du problème. Pour 
fixer les idées, nous adopterons ici une valeur de 5 %. 

En ce qui concerne Vinterprétation d’une telle scission, on 
doit tenir compte du fait que A et non A sont des caractères 
apparents. S'ils sont caractéristiques d'espèces différentes (4), 
alors chaque espèce conservera, dans les générations suivantes, 
l’une le caractère A, l’autre le caractère non A. Mais il n’en 
est pas toujours ainsi. Bien souvent, on ignore si le caractère 


fréquence 


Population I Population Il 
(les A) (les non A) 
M Ie M’ x 
Fig. 2. — Histogramme bimodal; 149 sujets. Par. un test de x? on 


vérifie que les deux modes ne sont pas dus aux hasards de 
l’échantillonnage ; on a donc réellement deux populations. On 
situe, au jugé, les points moyens M et M’. On calcule o et o’, 
en utilisant respectivement la partie de la population I située 
à gauche de M et la partie de la population II située à droite de 
M’. Une première approximation situe la frontière F au point 
de plus basse fréquence. Comme MF > 1,64 o et M’F > 1,64 a’, 
il y a moins de 5 % de sujets mal placés. 


(4) Par exemple, lorsque A et non A désignent des appareils 
chromosomiques non superposables. 


COMORES Noe ED 
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envisagé est spécifique, on ne sait même pas s’il est héréditaire ; 
d'autres fois on ne connaît pas son mode de transmission. 
Dans ces cas, on doit se contenter d’une simple séparation des 
phénotypes, les « A» et les « non A », avec le risque que certains 
descendants des « A » présentent le caractère « non A ». 

Un classement de ce genre est superficiel et ne peut être 
que provisoire. 

Il est assez courant de faire dériver une classification dis- 
continue des caractères continus. Cette pratique appelle plu- 
sieurs remarques : 

1. On ne peut en tout cas effectuer une division en deux 
catégories à l’aide d’un caractère continu que si celui-ci a une 
distribution bimodale, dont les deux modes sont séparés par 
une région de faible fréquence où l’on situe la frontière; il 
faut, nous en sommes convenus, qu'il n’y ait pas plus de 5 % 
de sujets douteux (fig. 2). : 

On considère une telle distribution bimodale comme résultant 
de la superposition de deux sortes de spécimens, les A et les 
non A, se recoupant légèrement. 


fréquence 


Population | 


(les A) 


Population II 


(les non A) 


M F M’ 


Fig. 3. — Distributions des populations I et II supposées normales. 
Ici la situation de F est précisée : ce point se trouve au niveau 
de l'intersection des deux courbes. La région hachurée repré- 
sente les sujets mal classés (moins de 5 %) 
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Si chaque groupe de spécimens a une distribution gaussienne 
(fig. 3), si o, o’ sont leurs déviations standard respectives, et 
Si M, M’ correspondent aux valeurs moyennes, on sait que le 
nombre de sujets mal classés n'excède pas 5 %, pourvu que 

MF > 1,64 ¢ et MF > 1,64 o’ (a) 
(les sujets mal classés sont les A placés entre F et M’, et les 
non A placés entre M et F). 

Malheureusement, c’est à partir de Vhistogramme bimodal 
que l’on doit juger de la normalité des deux distributions com- 
posantes et que l’on doit estimer les effectifs et les valeurs 
de o et de o’, ainsi que l’emplacement de M et M’, avant de 
pouvoir vérifier les relations («). On conçoit que ces opérations 
ne se font avec une sécurité suffisante que dans les cas plutôt 
rares d’un nombre de sujets très élevé ou lorsqu'il y a une 
région de fréquence quasi nulle entre les deux modes. 


fréquence 


160 


110 


60 
Non À 


x (poids) 


—— —— — 
a] Oo Laas 
2 Ga) E No) co 


Fig. 4 — Mauvaise séparation (voir aussi fig. 5). 
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2. Nous venons de voir comme il est hasardeux, même dans 
un cas de distribution bimodale, de passer du continu au dis- 
continu, 

A fortiori, ne peut-on pas scinder en A et non A d’après un 
caractère continu à distribution unimodale, 

an effet, comment justifier du point de vue biologique le 
choix de Ja limite F qui sépare les A des non A (fig. 4) ? Cette 
limite se plaçant à un endroit de haute fréquence, il y aura 
plus de 5 % de sujets douteux. En outre, certains sujets A 
peuvent en réalité être plus proches génétiquement de certains 
non A, à droite de F, que des autres sujets A. Pour s’en con- 
vaincre, il suffit de représenter graphiquement quelques lignées 
pures que E. JOHANXSEN (5) a tirées d’une population de hari- 
cots autofécondés (fig. 5). 


190 
180 
170 
160 


fréquence 


150 
140 
1301 
120 
110 
100 
901 
504 
704 
60 
50 
40) 
30 
20 
10 


= 


OL GA Sue ONONnONDONO 
SaNQNNAMNTE min DORE DHA 
Fig, 5. — A, E, H, O sont les distributions de 4 lignées pures de 
haricots isolées par E. JOHANNSEN. — ¢ est la distribution de 


l’ensemble de ces 4 lignées pures. 


(5) JOHANNSEN, E. (1908, p. 25). 


DE POPULATIONS VOISINES. ETUDE BIOMETRIQUE 11 


3. On effectue aussi assez souvent des séparations en deux 
catégories, non pas a Vaide d’un seul caractére continu, mais 
d’après Pallure globale de la forme des sujets, caractérisée par 
des adjectifs tels que allongé, arrondi, pointu, bombé, étoilé, 
etc. Les correctifs « plus ou moins », « plutôt », ... qui accom- 
pagnent généralement ces qualificatifs, révélent d’ailleurs le 
vague de leur définition (6). Or, il est presque toujours pos- 
sible de remplacer un terme descriptif de ce genre par des 
mensurations précises dont la distribution simultanée décrira 
l'échantillon de façon plus objective. 

Comme dans le cas d’une variable, il arrive qu’une telle 
distribution soit bimodale, et qu’il soit possible de placer une 
frontière avec moins de 5 % de sujets douteux. Alors, et seule- 
ment alors, il est légitime de passer du continu au discontinu, 
de classer les spécimens en « pointus » et « non pointus », par 
exemple. 

Une classification directe en « pointu » et « non pointu » 
n’est objective que s’il n’y a aucune confusion possible; si on 
n'hésite pas plus d’une fois sur vingt; si on est sûr qu’un autre 
ferait la même classification, 

Dans tous les autres cas, il est plus sage d’effectuer des 
mensurations et de considérer un caractère tel que « pointu » 
comme résultant du jeu de plusieurs variables continues. 


§ II. — COMPARAISON DE DEUX ÉCHANTILLONS. 


Dans une note sur les Méthodes statistiques en Systéma- 
tique humaine (7), nous avons indiqué les procédés classiques 
servant à la comparaison de deux échantillons. 

Pour la facilité du lecteur, nous allons les résumer ici; ils 
donnent la réponse à trois questions distinctes. 


1. PREMIÈRE QUESTION : les deux échantillons pro- 
viennent-ils de deux populations significati- 
yement différentes? 

La réponse est donnée par des tests dits d’homogénéité ou 
de divergence, aussi bien pour les caractéres continus que pour 
les caractères discontinus. 


(6) Chez B. H. Burma (1949, pp. 95-96), on trouve une discrimina- 
nation basée sur de tels critères descriptifs. Il traite ensuite les 
deux lots obtenus comme s'ils étaient de provenances différentes ! 

(7) DErRIsE, E. (1951, pp. 5-10). i 


12 E. DEFRISE-GUSSENHOVEN. — DISCRIMINATION 


2. DEUXIÈME QUESTION: ces populations sont-elles 
trés différentes ? 

La réponse est donnée par la distance généralisée de MAHA- 
LANOBIS, dans le cas des caractéres continus. 


TROISIÈME QUESTION: une différence réelle entre 
les deux populations étant établie, dans la- 
quelle des deux faut-il placer un nouveau cpe- 
cimen? 

La réponse est donnée par la fonction discriminatoire de 
Fisher, dans le cas des caractères continus. 


PREMIERE QUESTION. 
1. Test pour caractères discontinus, du type « A » et « non À ». 


a) Si dans chaque échantillon il y a des A et des non A en 
proportions différentes, le test de y? (8) dira si cette différence 
est significative, 

Différence significative = les deux populations présentent 
le caractére A en proportions différentes. 

Différence non significative = on n’a aucune preuve pour 
conclure a la différence des deux populations. En pratique, 
on admet dans ce cas que les deux populations présentent 
le caractére A en proportions égales. 

B) Naturellement, si l’un des échantillons ne contient que 
des A, l’autre que des non A, la différence entre les populations 
est démontrée sans test. 


2, Test pour caractères continus, à distribution de fréquence 
multivariée normale. 

Grâce à certaines transformations avant un sens biologique 
(en passant de æ à log x, de y a Yy, etc.), on peut souvent 
remplacer une variable non normale par une autre normale, 
de sorte que Vexigence de la normalité n’est pas une condition 
tellement restrictive (9). 

a) Une variable. Pour comparer les moyennes des deux échan- 
tillons, on utilise le test ¢ de STUDENT et pour comparer les 
déviations standard, le test e de R. A. FisHer (10). 


8) Pour plusieurs variables, le test de H. HOTELLING (11) 


(8) LAMOTTE, M. (1948, p. 305); L’HÉRITIER, Ph. (1949, p. 46). 
(9) QUENOUILLE, M. H., (1950, p. 162). 

(10) L’HÉRITIER, Ph., (1949, p. 73). 

(11) HoTELLING, H. (1931, p. 360). 
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indique si les moyennes des deux échantillons sont significati- 
vement différentes. 

Remarque: lorsque tous les tests indiquent des diffé- 
rences non significatives, on admet, bien qu’on ne puisse le 
prouver, que les deux populations sont identiques. 


DEUXIÈME QUESTION. 

Pour estimer le degré de divergence de deux populations rela- 
tivement à une variable normale ou à plusieurs variables liées 
par une distribution de fréquence multivariée normale, on 
établit la distance généralisée de P. C. MAHALANOBIS (12), sorte 
de distance non géométrique tenant compte des corrélations et 
dépendant de l'écart entre les valeurs moyennes. Les calculs 
ne sont possibles que si l’on admet que les variances et les 
covariances des deux populations sont identiques. 


TROISIÈME QUESTION. 


Dès que la différence entre les moyennes de deux populations 
multivariées normales est significative (que leur distance géné- 
ralisée soit faible ou forte), il est important de savoir où 
classer un nouveau spécimen. 

La fonction discriminatoire de R. A. Fisaer (traitée au 
§ IV dans le cas de deux variables) est utilisée à cette fin; 
elle permet en réalité d’atteindre un triple but (13) : 

1° Etablir un test de divergence pareil à celui de HOTELLING. 


2o Classer un nouveau spécimen selon la valeur que ses me- 
sures donnent à la fonction discriminatoire. 


3° Evaluer le nombre de mauvaises classifications que Von 
fera ainsi, dans l'hypothèse où la probabilité à priori pour un 
nouveau spécimen d'appartenir à l’une ou l’autre population 
est la même (14). 


§ III. — ANALYSE D'UN ÉCHANTILLON. 


1° Si Won est assuré de la spécificité dun 
caractère discontinu donné, on l'utilise d’emblée pour classer 
les sujets de l’échantillon en deux espèces distinctes (15). 


(12) MAHALANOBIS, P. C. (1930, p. 541) et FisHEr, R. A. (1937, 
D- 378): 

(13) e R. A. (1936, p. 179); id. (1937, p. 376). 

(14) Wetcu, B. L. (1939, p. 218). ; 

(15) Nous adoptons ici la définition d’espéce donnée par L. Cué- 
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La discrimination est ainsi réalisée. On peut ensuite com- 
pléter Vanalyse en comparant d’autres caractéres des deux 
especes par les tests biométriques utilisés dans le cas de deux 
échantillons. 

2° Mais, souvent, la valeur systématique des caractères dis- 
continus n’est pas connue; alors il ne faut pas s'en servir pour 
séparer en deux types les spécimens d’un échantillon. On arrive 
à une meilleure discrimination en commençant l’analyse par 
des caractères continus. 

L'expérience semble montrer qu’une popula- 
tion panmictique fermée suffisamment an- 
cienne est telle que ses caractères continus 
ont des distributions unimodales. Du moins ne 
connaissons-nous pas d'exception. On conçoit d’ailleurs que 
le jeu du regroupement des génes, influence du milieu, toutes 
ces petites causes régies par le hasard, finissent par donner 
à la distribution du caractère une allure gaussienne. 

Ainsi donc, si une distribution unimodale peut appartenir 
aussi bien à une population mixte qu'à une population pan- 
mictique fermée, une distribution bimodale dénote une popu- 
lation mixte. C’est cette propriété qui est à la base des procédés 
que nous allons exposer, 

Une propriété analogue n’existe pas pour les caractères dis- 
continus, En l’absence de données précises sur leur mode de 
transmission, il est extrêmement difficile de déduire de leur 
fréquence si l’on est en présence d’un mélange de deux popu- 
lations ou d’une population panmictique fermée. 

C’est pourquoi une discrimination a plus de chances de se 
conserver dans les générations suivantes si elle est basée sur 
des caractères continus, plutôt que sur des caractères discon- 
tinus. 

Quant à l'interprétation d’une population mixte du point 
de vue de la systématique, elle n’est pas toujours aisée. Une 
telle population proviendra parfois du mélange de deux espèces 
(ou genres) très ressemblants, entre lesquels la barrière em- 
pêchant le croisement maintient une distinction morphologique 
décelable. D'autres fois, on sera simplement en présence de 


NOT : L'espèce est une réunion d'individus apparentés ayant même 
morphologie héréditaire et genre de vie commun, séparée des 
groupes voisins par quelque barrière, généra- 
lement d’ordre sexuel. 
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deux races dont le croisement est trop récent pour avoir masqué 
les caractères distinctifs. 


1. ANALYSE GRAPHIQUE D'UN ÉCHANTILLON PAR LES CARAC- 
TÈRES CONTINUS. 


Nous allons maintenant exposer les étapes successives d’une 
méthode pour effectuer une discrimination au sein d’un échan- 
tillon, à l’aide de caractères continus, 

On peut distinguer deux stades dans la discrimination : 


` 


1° Réussir à décider qu’une population est mixte. Pour cela, 
il suffira de trouver une distribution à deux modes nettement 
marqués, soit un simple histogramme, soit une distribution 
simultanée de deux variables. 

2° Dans le cas d’une population mixte, réaliser effectivement 
la séparation en deux types, Pour atteindre cet objectif, il 
faudra parvenir à faire apparaître, entre les deux modes, une 
ligne frontière nette. 

Dans les deux cas — que ce soit pour faire apparaître deux 
modes, ou pour rendre apparente une frontière le plus nette 
possible, — une distribution bivariée peut réussir la où cha- 
cune des deux variables prises séparément aurait été inefficace. 
Il suffit pour s’en convaincre d’un coup d'œil sur les figures 
meS 

Soient «, Y, z, t, ... les variables qui désignent les caractères 
mesurés dans un échantillon. 

On construit l’histogramme pour chaque variable en choi- 
sissant un intervalle de groupement suffisamment grand pour 
qu’il n’y ait pas de classes vides, suffisamment petit pour qu’il 
y ait de 15 à 25 classes. 

On retient les variables dont la distribution présente de 
façon plus ou moins nette deux sommets. 

Nous distinguerons trois cas suivant qu'il y a au moins deux 
variables à distribution bimodale, qu’il n’y en a qu’une seule 
ou qu’il n’y en a aucune. Dans les deux premiers cas, on est 
déjà assuré que la population est mixte. Reste seulement à 
effectuer au mieux la séparation. 


1er cas. Il y a au moins deux variables à distribution bimo- 
dale. 


a) Soient # et y deux distributions bimodales. On construit 
avec æ et y un tableau à double entrée où chaque sujet est figuré 
par un point de coordonnées æ et y (on prend donc ici les 
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résultats directs des mesures sans faire de groupement). Tous 
les points forment un nuage qui présentera deux régions dis- 
tinctes de forte concentration puisque déja chaque variable « 
et y prise séparément avait une distribution bimodale. S’il est 
possible de dissocier le nuage en deux huages partiels séparés 
par une ligne frontière nette, la discrimination est réalisée 
graphiquement (fig. 6) (16). Selon qu’un nouveau sujet se place 


y 
"+ 
". 
x 
Fig. 6 — Nuage à double concentration, nettement sé arable en 
8 B° ; ; 
deux populations par une droite frontière. — x et y ont chacun 


une distribution bimodale. 


d'un côté ou de l’autre de cette frontière, il appartient à l’une 
ou l’autre population. 
Remarquons qu’une discrimination basée sur un tel gra- 


(16) Au § IV, nous utiliserons cette frontière comme une première 
approximation pour en déduire, par le calcul, une meilleure discri- 
mination. Voir, en particulier, la remarque de la page 27. 


DE POPULATIONS VOISINES. ETUDE BIOMÉTRIQUE i 


phique de x et y aura toujours moins de sujets douteux que les 
discriminations basées sur les histogrammes de w et de y pris 
séparément. La meilleure discrimination serait donnée par une 
représentation spatiale à autant de dimensions qu’il y a de 
variables. 

C’est Vimpossibilité matérielle d’une telle représentation 
qui nous oblige à nous borner à des graphiques de deux varia- 
bles. 

8) Si une troisième variable z présente aussi une distribution 
bimodale, on construit deux nouveaux tableaux : y avec æ et 
z avec On a alors en tout trois tableaux, done chacun pré- 
sente deux nuages plus ou moins nettement dissociés : en les 
confrontant, on peut éventuellement corriger les résultats 
obtenus par la premiére discrimination. 


ème cas. Il y a une seule variable bimodale. 


S'il arrive que seule la variable # a une distribution bimo- 
dale, on la combine successivement avec chacune des autres 
jusqu’à ce que l’on trouve un nuage à double concentration, 
dont les modes sont bien distants (fig. 7). La séparation entre 
les deux populations a plus de chances d’apparaitre nettement 
sur un tel graphique que sur l’histogramme de œ seul : qu’on 


/ 


X 


Fig. 7. — Nuage à double concentration, nettement séparable. = 
æ a une distribution bimodale, mais y a une distribution uni- 
modale. 
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regarde la figure 7 en s’imaginant ce que serait l’histogramme 
de v. 
ame cas, Aucune variable wa une distribution bimodale. 
Examinons enfin le cas le plus défavorable : aucune variable 
n'a un histogramme à deux sommets. 


«) On construit les nuages pour tous les couples de variables, 
jusqu’à ce que l’on trouve un nuage à double concentration 
(fig. 8), où l’on essaie alors de tracer une ligne frontière. 


Fig. 8. — Bien que x et y aient chacun une distribution unimodale, 
on obtient ici un nuage à double concentration, nettement sépa- 
rable. 


B) En cas d’échec, on répète la même opération en adjoignant 
de nouvelles variables : soit de nouvelles mesures, soit plutôt 
des fonctions continues simples des premières variables, par 


7 
, ?+t, ext, etc... inspirées par la forme de l'animal. 
y 
Si, malgré toutes les tentatives, on n’obtient pas de nuage 
à double concentration, on admet provisoirement que la popu- 
lation n’est pas mixte. 


exemple 
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2. POURSUITE DE L’ANALYSE PAR L’ADJONCTION DES CARAC- 
PÈRES DISCONTINUS. 


Au début de l’analyse, avant d'utiliser les caractères con- 
tinus, nous avons signalé la possibilité d’exploitation des 
caractères discontinus dont la spécificité était certaine, Au 
stade actuel de ne nous voulons indiquer les possibilités 
d'utilisation des caractères discontinus dont la spécificité 
n’est pas AR Il s'agira done de caractères de nature 
variée : les uns seront dus à des facteurs mésologiques, les 
autres à des facteurs génétiques. Il y aura sans doute parmi 
eux des caractères en réalité spécifiques, mais dont la spéci- 
ficité n’est pas encore reconnue avec certitude. Aussi, le rai- 
sonnement qui va suivre est-il suffisamment général pour 
s'appliquer à tous les caractères discontinus, à condition que 
leur spécificité n’ait pas été prouvée. 

Nous distinguerons trois cas suivant que les nuages fournis 
par l’analyse graphique des caractères continus sont tous uni- 
modaux, que l’un au moins est à double concentration mais 
malaisément séparable par une frontière, ou enfin que l’un au 
moins à été nettement dissocié. 


ler cas. Si tous les nuages sont homogènes, on n’a aucune 
base objective pour conclure que la population est mixte. 

On reprend alors les caractères discontinus. Pour chacun 
d’eux, on examine si l’on trouve un seul type d'individus, ou 
bien si l’échantillon est divisé en deux classes telles que A 
eb non A" 

Si Von ne trouve jamais qu’une seule modalité, on peut 
admettre que la population est homogène pour tous les carac- 
tères envisagés. 

Si, au contraire, on obtient des catégories telles que (A) 
et (non A), ou encore telles que (A, B), (A, non B), (non A, B), 
(non A, non B), on doit se borner à noter leur fréquence, sans 
pouvoir tirer de conclusion. En effet, ces divers types, avec 
leurs fréquences, pourraient se rencontrer aussi bien dans une 
population panmictique fermée que dans une population mixte, 
dans une population hétérozygote aussi bien que dans une 
population homozygote où certaines influences mésologiques 
les auraient fait apparaître, 

Il arrive cependant que l’on trouve associés plusieurs carac- 
tères, par exemple que les spécimens se divisent en deux 
eroupes tels que (A, B, ..) et (non A, nonB, nonC, ...). 
Si l’on est sûr que Races de ces caractères n’est pas dt 
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à un seul facteur génétique ou mésologique, on conclut alors 
à l’existence de deux populations distinctes qui ne s’hybrident 
pas : la discrimination est effectuée. Toutefois, un pareil cas 
est assez exceptionnel : n’oublions pas en effet que les popu- 
lations sont très ressemblantes. 

Nous avons dit pourquoi les A et les non A ne forment pas 
nécessairement des populations distinctes, Ajoutons que méme 
si des tests appliqués à des caractères continus @, y, 2, ..., 
indiquent une différence significative entre le lot des A et celui 
des non A, cela ne prouve pas que la discrimination en A et 
non A soit bonne, mais seulement qu’il y a une corrélation, 
fût-elle légère, entre le caractère A et les caractères £, y, S, ...; 
intervenant dans les tests. Ainsi, il se peut que dans une cer- 
taine population, un test de divergence révèle que les sujets 
avec des yeux bleus sont plus grands que les sujets avec des 
veux bruns, La séparation en yeux bleus et yeux bruns est 
cependant artificielle si les deux groupes se croisent. Le test 
ne sert done ici qu’à montrer la corrélation entre la couleur 
des yeux et la taille; il sera intéressant alors d'approfondir 
l'étude de cette corrélation, d’en rechercher les raisons histo- 
riques et biologiques (17). 


ame cas. Si l’on a obtenu un nuage à deux modes, on est 
certainement en présence de deux populations. Mais s'il est 
impossible de tracer la frontière, en raison du recouvrement 
partiel des deux populations, s'agit-il de deux espèces ou bien 
de deux races qui commencent à s’hybrider ? 

Seules l'observation de ces populations et certaines expé- 
riences pourraient nous l’apprendre, 

Cependant, leur description (non pas leur discrimination) 
se complète éventuellement grâce à tel ou tel caractère dis- 
continu. Si, par exemple, dans les régions du nuage nettement 
disjointes, on a respectivement des spécimens verts et bleus, les 
deux populations contiennent principalement l’une des sujets 
verts, l’autre des sujets bleus. Mais, pas plus que dans le pre- 
mier cas, la discrimination séparant les bleus des verts n’est 
complètement satisfaisante tant que l’on ignore le comporte- 
ment de la couleur dans les hybrides éventuels. 


jme cas, Deux nuages, nettement disjoints, où Von est sûr 
d’avoir moins de 5 % de sujets douteux, indiquent que l’échan- 
tillon comprend deux sortes de sujets, séparables graphique- 


(17) Voir par exemple MATHER, K. (1949, p. 7). 
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ment par une ligne frontière. La population est mixte et 
Vhybridation, si elle est possible, n’a pas commencé, 

Il est intéressant d'examiner alors la répartition des carac- 
tères discontinus, car s’il arrive que l’un des nuages partiels 
ne contienne que des A, et l’autre rien que des non A, une telle 
circonstance renforcera la valeur de la discrimination et ren- 
selgnera peut-être sur la nature du caractère A. 

Dans le cas où chaque nuage contient des A et des non A, 
nous pensons que la discrimination basée sur la disjonction 
des nuages est plus importante du point de vue biologique que 
la séparation en sujets A et non A. En effet, on doit admettre 
qu'entre ceux-ci les croisements sont possibles, tant que l’on 
n’est pas complètement renseigné sur la nature du caractère A. 
Tandis qu’en séparant les spécimens des deux nuages, on forme 
deux groupes dont on sait, du moins, qu’ils ne s’hybrident pas. 

Ainsi, si une peuplade a donné des graphiques taille/indice 
céphalique présentant deux nuages nettement disjoints, l’exis- 
tence de deux populations distinctes est mise en évidence. 
Au contraire, les groupes sanguins ne définissent pas de telles 
populations isolées, mais des catégories liées par des mariages. 


§ IV. — LA FONCTION DISCRIMINATOIRE DE FISHER. 


Après avoir rappelé les points essentiels de la théorie de 
la fonction discriminatoire de R. A. Fisher (1936; 1937), nous 
calculerons effectivement cette fonction dans le cas de deux 
variables, 

La signification de certains termes, comme distribution mul- 
tivariée normale, variance intragroupe, covariance, ressortira 
clairement des formules. D’autre part, la bibliographie indique 
des ouvrages spécialisés pour le lecteur désireux d’approfondir 
la question. 

1. GÉNÉRALITÉS,. 

La fonction discriminatoire de FisHer peut être utilisée si 
Pon a: 

a) soit deux échantillons ; 

b) soit un échantillon, mais déjà divisé en deux groupes par 
les procédés graphiques indiqués au § III. 

S'il s’agit de deux échantillons, la fonction discriminatoire 
de FisHer peut servir d’abord à décider s’ils sont significa- 
tivement différents (cf. n° 3 ci-dessous). 


ii) 
i) 
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Si l’on a soit deux échantillons significativement différents, 
soit deux groupes déjà dissociés au sein d’un échantillon unique, 
on en déduit l'existence de deux populations; la fonction dis- 
criminatoire de FisHer permet alors de fixer la meilleure 
frontière entre ces deux populations, pour le classement d’un 
nouveau spécimen (n° 4) ; il est possible en outre d’estimer la 
valeur de cette frontière, en calculant le pourcentage de mau- 
vais classements (n° 5). 


Sauf au n° 3, nous ne distinguerons pas le cas de deux 
échantillons et celui de deux groupes au sein 
d’un échantillon: nous dirons, dans les deux cas, que 
nous disposons de « deux groupes ». 


Si £, y, ?, ... sont les variables continues à distribution 
multivariée normale, avant mêmes variances et covariances 
dans chaque groupe, la fonction discriminatoire de FISHER 
combine linéairement toutes ces variables pour former une 
Variable unique 

X=0;2+ by 4024... 
plus sensible que toute autre à l'écart qui existe entre les deux 
groupes. 

Autrement dit, si X,, X, désignent respectivement les moyen- 
nes de X dans les groupes I et II et o, la variance intra- 
groupe commune, on calcule bi, Oz 0, ... de telle façon que 
| X,— X| 


soit un maximum, 


Oe: 


Selon ses mesures %;, Yi Ziy ..., chaque nouveau spécimen 
fournira une valeur particulière de X, soit X,, et sera classé 
dans la population I ou II selon que X; sera inférieur ou supé- 

X,+X, 
rieur à ————. 
2 

Cette valeur critique indique la frontiére entre les deux 

populations. 


Son choix est tel que le nombre total des sujets mal classés 
est minimum et que le nombre de sujets I classés dans II et de 
sujets II classés dans I est égal. 

Nous allons effectuer les calculs de la fonction discrimina- 
toire de FISHER 

X= bye + by 


dans le cas de deux variables, sans donner les démonstrations. 


DE POPULATIONS VOISINES. ÉTUDE BIOMETRIQUE 23 


X +X; 
X prendra la valeur critique —— 


pour tous les points 


9 


æ, y, du plan situés sur la droite d’équation 


X,+ X, 
ba + boy = 
2 


had 


Cette droite sera la ligne de meilleure séparation entre les 
groupes I et II. Selon qu’un nouveau spécimen sera d’un côté 
ou de l’autre de cette droite, il sera rangé dans la population 
oust. 


Remarque. Si Von a décidé d'opérer avec les variables u et v, 

x £ s a 9 3 A = 
où u=—,v=2 x t, il faut d’abord s'assurer que u et v sont 

y 
distribués normalement (sinon on pourra remplacer v par 
VO CLG. ae), 

La fonction X=b,u+ bv, linéaire en u et v, n’est pas linéaire 
en g, y, 2, t. On adopte cependant X=b,uw+b.v, de préférence 
à la fonction discriminatoire plus sensible calculée directement 
pour æ, y, z, t, en raison de sa représentations graphique com- 
mode sur le plan w, v et de la plus grande simplicité des calculs. 


2, CALCUL DE LA FONCTION DISCRIMINATOIRE DE FISHER DANS 
LE CAS DE DEUX VARIABLES, 


Soient z,, Yı les variables d’un spécimen du groupe I et #,, 
y, celles d’un spécimen du groupe IT. 

Si les effectifs des deux groupes sont n; et m, on calcule 
successivement les moyennes de chaque variable dans chaque 
groupe 


Sa, DA 2%, 2y: : 
min Pioneer = do, =Y 
ny, n Ny Ny 


et les différences entre les moyennes d,=2,— t 
Cy, 
Chaque groupe est représenté par un nuage de points sur un 
graphique de coordonnées # et y. C,(a, y) et Cy (2>, Y2) sont les 


centres de ces nuages. 
En posant n = m, + nm, — 2, on calcule les quantités A,, Ag, 
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B égales a 


nl n2 


A,=n >? SOA A UE =A 
œ 1 
nl n2 == = 
5 oo 
(8) A,=Noy = BY" AY — MY MY 
1 1 
nl n2 SEN a 
BEN Pry Tr Ty = XL Yt ÈL Y, — My L,Y — Ny Lo Yo 
1 1 


Ox, Ty, Pry Tx Ty SONt respectivement les variances et la coya- 
riance communes aux deux populations, estimées à partir des 
variances et covariances de chaque groupe (18). On voit que les 
deux populations ne différent que par leurs moyennes. 

La fonction discriminatoire de FIsHER est alors 


X=(A,d,— Bd,)æ+ (A,d, —Bd,)y. 


Les valeurs moyennes de X dans chaque population sont 


X,= (A,d,— Bd,) #, + (Ad, —Bd,)% 
X,= (Ad, — Bd,) t:+ (Ad, — Bd,) Y2 


3. UTILISATION DE LA FONCTION DISCRIMINATOIRE COMME TEST 
DE DIVERGENCE DANS LE CAS DE DEUX ÉCHANTILLONS. 


Dans le cas d’un échantillon indiquant deux types distincts, 
il n’est plus nécessaire de faire un test de divergence. Une 
différence significative entre les deux moyennes est suffisam- 
ment prouvée par l'existence de deux nuages totalement dis- 
sociés. 

Il n’en est pas de même pour deux échantillons. Il se peut 
que seul un test puisse révéler que la différence entre les deux 
moyennes est significative. 


(18) Si les déviations standard et les coefficients de corrélation 
sont déjà calculés dans chaque groupe — s,, Sy, 7, pour le premier, 


Ss 


1 1 
r, pour le second — on peut calculer directement A, A, B 


> 
2 


TI Sy s 


par les formules 


= 2 2 

A= Sy +N, Se 

1 2 

== 2 2 

A =n; Sy ENa Sy 
1 2 

s 


w Pa 


B = 7, Se Sy iS 
TA 2 2 
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On calcule 
D=X,—X,=A,d2+A,4?—92Bd,d,, quantité toujours positive ou 
nulle i 
et nc DAA BY =n? a A D, 


où n’ est le nombre de degrés de liberté valant n,+n,—3 et 
où g est la variance intragroupe estimée de X (la variance 
intragroupe de X est proportionnelle à la somme des carrés 
des écarts, dans chaque groupe, entre la moyenne de X et les 
valeurs individuelles de X). 


s AA 
La déviation standard de X,— X; est ox |/ nt G ORE 
Vo n Fh 
que le { de STUDENT vaut 

NG ae x 
ee 

à LA 

Ons! ph — 

| Ny Ny 


Si, pour m degrés de liberté, les tables de STUDENT (19) 
indiquent que la valeur de t est significative, il y a une réelle 
différence morphologique entre les deux échantillons. 


4. CLASSEMENT D’UN NOUVEAU SPECIMEN; TRACE DE LA DROITE 
(d) DE MEILLEURE SÉPARATION ENTRE DEUX ÉCHANTILLONS OU 
ENTRE DEUX TYPES NETTEMENT DISSOCIÉS DÉCOUVERTS DANS UN 
ÉCHANTILLON UNIQUE. 


le Un nouveau spécimen, de mesures %; Yı ayant comme 
valeur de X 
X,= (Ad, — Bd,)æ;+(A,d, — Ba,) y; 
se classe dans la population I ou II suivant que X; est inférieur 
IN. 
ou supérieur à a 


9 


2° Mais on peut éviter de refaire le calcul séparé de X pour 
chaque nouveau sujet : sur le graphique où figurent les nuages 
de points relatifs à chaque groupe, on trace la droite (d) de 
meilleure séparation, d’équation 
SEE 
(d) (A,d, — Bd,) a+ (Ady — Bd,) Y =—___. 


bo 


(19) Fisxer, R. A. & YATES, F. (1948, p. 32). 
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Celle-ci peut se mettre sous la forme 


Yt Yo Ti + d'à 
=M T — 


A,d,—Bd, 
—| avec m= 


y= eae Fes 
Bd, Ad, 


») » 
á ád 


comme coefficient angulaire. 


+2, 
La droite (d) passe par le point M de coordonnées —, 
Es 9 
N+ Yo | x 
—— milieu de CC, (fig. 9). 
2 
y 
Vis 
Sal?) 
+ 1 
x M 
— (d) 
Le 
71 | 
C 
ES x 
Fig 9. — C, (x, y) et Cy (a, y2) sont respectivement les centres 
des populations I et II. 
Dt e Wt 
M | ———, —— | est le milieu de C, ©. 


2 2 | 
Les points M et P (x, B) définissent la droite (d) de meilleure 
séparation. 


Il est facile d’en calculer un deuxième point P de coordon- 
nées «pa 

On donne à # une valeur quelconque «, et on calcule la valeur 
correspondante de y, soit 


T+T, i+ Yr 
B=m | a —— | + —— 
2 2 


En joignant M à P on obtient la droite (d). 
Selon qu’un nouveau point v, y; sera du côté de la droite où 
figure C, ou C,, il appartiendra à la population I ou II. 
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5. CALCUL DU NOMBRE DE SUJETS MAL CLASSÉS SI L’ON PREND 
(d) COMME FRONTIÈRE ENTRE LES DEUX POPULATIONS. 


Appliquons cette méthode pour classer 100 nouveaux spéci- 
mens dont nous savons seulement qwils appartiennent a Pune 
ou lautre population. 

Le nombre de sujets mal classés sera minimum, mais com- 
ment le calculer ? 

Les tables de la distribution normale (20) indiquent le pour- 
centage de sujets d’une population normale situés au delà de 

KX 
la moyenne augmentée de s = ———., Ce pourcentage indique 


20 


le nombre de spécimens mal classés parmi les 100 sujets a 
répartir dans les deux populations. 

Pour en avoir moins de 5 %, il faut que s > 1,64. 

Le nombre d’erreurs est d'autant plus faible que s est plus 
grand, On comprend mieux maintenant pourquoi la fonction 
a été choisie de façon à rendre maximum la quantité 
XX; 


= 2s, car au maximum de s correspond un minimum 
Ox 


de sujets mal classés. 


Remarque. Dans le cas d’un échantillon, la séparation préa- 
lable en deux groupes, réalisée graphiquement par les procédés 
du § III, a été utilisée comme une première approximation pour 
déterminer par le calcul une meilleure frontière : la droite (d). 
Cependant, si pour la droite (d) obtenue, le nombre de sujets 
mal classés est inférieur à 5 %, le recouvrement des deux popu- 
lations est faible et les fluctuations de la première frontière 
graphique ne peuvent avoir qu'une influence négligeable sur 
la position de (d). 


6. UNE PROPRIÉTÉ DE LA DROITE (d). 


Pour rendre plus concret l'aspect des nuages de points, 
entourons chacun d’une ellipse d’égale probabilité, contenant 
un pourcentage donné de sujets. 

Cela est possible puisque chaque population est considérée 
comme normale. Nous avons supposé en outre que les variances 
2 et la covariance pey Ts Ty Sont communes (voir p. 24, 


2 
Oe Oy cy 


(20) FisHEr, R. A. & YATES F. (1948, p. 31). 
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formule 8), de sorte que les éléments de fréquence des distribu- 
tions sont respectivement 


ey 
iL $ 2 
d f,= -—— 28 dx dy : 
DAC TN E 
L, 
| E 2 
da= — —- e dx dy ; 
Lit CeO N LED, 
avec 
\ (4 — +)? 2 Pry (a — T) (y — y) (y — y?) 
by -= E à > on Zz ter A Cr Sn + Ï 
lp", l TE GE y Ga \ 


avec t c= Ihe We 


L,=A?, L,=? sont les équations de deux ellipses d’égale 
probabilité, E,, E,, contenant chacune le même nombre de sujets 
de la population à laquelle elle se rapporte. Pour avoir 95 % 
de sujets dans une ellipse, on prend A? = 5,99; pour avoir 99 %, 
il faut que À? = 9,21. Ce sont les tables de x qui indiquent les 
valeurs de A? correspondant à un pourcentage donné (21), car 
À est distribué comme y? avec deux degrés de liberté. 

Pour une même valeur de A?, les deux ellipses E, et E, sont 
égales et leurs axes sont paralléles; elles ne différent que par 
leurs centres respectifs C, et C, (fig. 10). 


La droite (dj) passe par les deux potmis eds ime 
tersectiom de et a e ed 


Démonstration. Tous les points des ellipses E, et E, ont 
des fréquences égales. Le lieu des points du plan ayant une 
fréquence identique dans les deux populations a comme équa- 
tion L, = L,, et doit contenir les points I et J. 

A cause de Vhypothése de l’égalité des variances et de la 
covariance dans les deux populations, cette équation se réduit 
aux termes du premier degré en œ et y. 

Tous calculs faits, on trouve 


Yit Yo oe d, — Pry Fan Ty d, Li + Hy 
Yy— = ce ee 
2 Pay Tie, A J 


(21) FISHER, R. AT & YATES, F. (1948, S 
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Fig. 10. — L’ellipse E, de centre C, renferme 95 % des sujets de la 
population I (A?=5,99). 
L’ellipse E, de centre O, renferme 95 % des sujets de la popu- 
lation II (A?=5,99). 
Pour obtenir la droite (4), il suffit de joindre IJ. Il y a ici 
moins de 5% de sujets mal classés, 


qui est précisément l'équation de la droite (d). Cette droite est 
donc le lieu des points d’égale fréquence dans les deux popu- 
lations et passe par les points I et J. 

Généralisation de cette propriété. 

Dans l’espace à 3 dimensions, les nuages de points repré- 
sentant les deux populations — toujours supposées normales 
à mêmes variances et covariances — sont séparés par un plan, 
lieu des points d’égale fréquence dans l’une et l’autre popu- 
lation. L’équation de ce plan est donnée par la fonction discri- 
minatoire pour trois variables, où X prend la valeur critique 
Xi+X, 


2 
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La propriété se conserve de méme lorsqu’il y a plus de trois 
variables. 


CONCLUSION. 


I] existe des méthodes biométriques objectives et stires, appli- 
cables à ce que Von peut appeler la systématique à petite 
échelle, c'est-à-dire celle qui concerne les populations très res- 
semblantes : 


1° des méthodes classiques pour comparer deux ou plusieurs 
échantillons, qui résultent de théories assez compliquées du 
calcul des probabilités, mais sont elles-mêmes d’un usage facile. 

2° des procédés graphiques, mis au point dans cette note et 
servant à séparer deux ou plusieurs types au sein d’un échan- 
tillon unique; ils n'offrent aucune difficulté, ni dans la théorie, 
ni dans les applications. 


Cette note contient l’exposé de ces méthodes, en elles-mêmes 
très simples. Nous avons jugé utile d’y ajouter la discussion de 
certains points délicats qui doivent être examinés au début de 
l'enquête biométrique et au moment de tirer les conclusions. 

Avant d'aborder Vétude des populations voisines, il faut 
formuler clairement la question à laquelle on cherche une 
réponse, car de la nature de cette question dépend le choix 
de la méthode biométrique. D’autre part, il ne faut pas hésiter, 
le cas échéant, à abandonner au profit d’un autre tel matériel 
dont le traitement biométrique exigerait un effort dispropor- 
tionné à l'importance du problème posé. Cette réflexion préli- 
minaire peut aussi concourir à éviter des conclusions dénuées 
de sens. 

Le choix s'étant fixé sur une méthode convenable, on peut 
l'appliquer de façon presque mécanique, à condition d'opérer 
sur un nombre suffisant de spécimens récoltés au hasard (22). 
L’effectif minimum dépend de la variabilité de la population. 


On doit adopter pour les mensurations — prises d’après une 
méthode standardisée — une échelle suffisamment fine, mais 


en rapport avec les erreurs inévitables de mesure et avec la 
variabilité de l’ensemble de la population. 

Au moment d'interpréter les différences morphologi- 
ques éventuellement révélées, on se trouve devant de réelles 
difficultés — inhérentes, croyons-nous, à de nombreuses discri- 


(22) Dans les conditions exposées au § I. 
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minations en systématique et qui ne tiennent done pas aux 
méthodes biométriques employées. 

Un obstacle fondamental à une bonne discrimination est 
l'ignorance profonde où Von est généralement de la nature 
biologique des caractères discontinus utilisés. La plupart du 
temps, l'examen, même approfondi, des spécimens de l’échan- 
tillon ne suffit pas; seule l’observation dans la nature et des 
élevages expérimentaux aident à comprendre comment les 
populations vivent, se multiplient et de quelle façon les carac- 
teres observés s’acquièrent et se transmettent. C’est dire que 
très souvent, à cause de l'impossibilité matérielle de tels exa- 
mens, notamment en paléontologie, le classement basé sur ces 
caractères reste provisoire et un peu conventionnel. 

On peut d’ailleurs se demander s’il est assuré, à priori, que 
la systématique à une échelle si fine soit possible, Peut-être, 
en effet, poursuit-on un but inaccessible et doit-on finalement 
arriver à l’individu en voulant pousser si loin la classification 
animale, Car existe-t-il réellement entre tous les groupes des 
barrières nettes que des efforts suffisants finiront toujours 
par mettre en évidence ? La difficulté de définir clairement le 
concept de race humaine pourrait nous en faire douter. 

Le naturaliste admettrait aisément ce point de vue si son 
désir d’une nomenclature sans aucune frange d’indétermination 
ne lui faisait pas considérer comme idéales les formes bien 
distinctes, 

Cependant, un usage rationnel de la biométrie pourrait 
conduire à un autre genre de classification, aisée et objective, 
même lorsqu'on n'aurait pas de séparations nettes entre les 
groupes. Des graphiques, aussi nombreux qu'il le faudrait, 
fixeraient, sous forme de nuages de points, tous les sujets 
d'une population ou même de plusieurs populations voisines. 
Chaque nouveau sujet serait déterminé par la place qu’il occupe 
sur ces graphiques : il serait ainsi parfaitement 
situé, sans que des cloisons étanches entre les divers points 
de forte concentration soient pour cela nécessaires. Au lieu 
du « type » isolé de la systématique classique, les valeurs 
moyennes, la variabilité, les coefficients de corrélation des 
caractères continus de tous ces nuages caractériseraient ces 
populations. 

On aurait ainsi tenu compte de la variation souvent continue 
d’un groupe à l’autre, alors qu’on regarde fréquemment cette 
donnée comme gênante, simplement parce qu’elle ne permet 
pas Vapplication des méthodes usuelles de la systématique. 


CO 
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Au niveau inférieur de la classification systématique, nous 
croyous aussi qu'il ne serait pas impossible d’adapter les 
règles de nomenclature à cette continuité apparente si souvent 
mise en lumiére par la biométrie. 

Pour illustrer notre pensée, évoquons, dans un autre domaine, 
l'exemple des couleurs, autrefois uniquement désignées par des 
noms, et aujourd'hui repérées dans des graphiques standardisés 
qui traduisent la continuité effective des couleurs. Il n’en reste 
pas moins que les noms anciens subsistent pour nommer les 
tons les plus usuels. 

En terminant, je tiens à exprimer tous mes remerciements 
au Dr F. TwiesseLMaANX pour de nombreuses suggestions et 
remarques qui m'ont été précieuses. Je dois beaucoup aussi à 
plusieurs membres de l’Institut royal des Sciences naturelles 
qui m'ont obligeamment fourni des renseignements sur diverses 
questions en systématique, et notamment à M. GLIBERT qui 
a bien voulu relire mon manuscrit. 


RÉSUMÉ. 


UT : discriminer des populations très ressemblantes. 


DISTINCTION ENTRE UN ET PLUSIEURS ÉCHANTILLONS : suivant 
la provenance, et non d’après des critères morphologiques. 


CARACTÈRES CONTINUS ET DISCONTINUS. Le passage des pre-- 
miers aux seconds peut se faire dans certains cas, à condition de 
prendre de nombreuses précautions. La séparation d’un échan- 
tillon en sujets A et non A ne conduit pas nécessairement à 
deux groupes homogènes. 


COMPARAISON DE DEUX ÉCHANTILLONS : divers tests, distance 
généralisée de P. C. MAHALANOBIS, fonction discriminatoire de 
R. A. FISHER. 

ANALYSE D'UN ÉCHANTILLON. 

le Si A est un caractère spécifique certain, les A et les 
non A constituent deux espèces que l’on peut comparer ensuite 
par les méthodes applicables à deux échantillons, 

2° Si l’on ne trouve pas un tel caractère discontinu spéci- 
fique, on utilise d’abord les caractères continus avec lesquels 
on établit des graphiques à deux variables. 
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a) Si l’on ne trouve aucun nuage à double concentration, il 
est impossible de prouver que la population est mixte. Si l’on 
se tourne vers les caractères discontinus (à spécificité non 
reconnue), un caractère A peut réaliser un partage en deux 
groupes A et non A, mais qui ne sont pas nécessairement homo- 
gènes. 

Dans certains cas, plusieurs caractères discontinus peuvent 
se trouver associés et permettre une bonne discrimination. 

B) Si Von obtient un nuage à double concentration, on a une 
population mixte. Mais il arrive qu’on ne puisse réaliser la 
séparation, en raison du recouvrement partiel des deux popu- 
lations. La description de telles populations se complète heu- 
reusement par examen de caractères discontinus. 

y) Si, au contraire, on trouve deux nuages nettement sépa- 
rables, la discrimination est faite; on peut examiner ensuite 
la répartition des caractères discontinus. 


FONCTION DISCRIMINATOIRE DE FisHer. Cette fonction sert à 
fixer la meilleure frontière entre deux populations. Elle est cal- 
culée ici dans le cas de deux variables. Elle peut servir de test 
de divergence lorsque les populations ont des provenances dis- 
tinctes. Dans tous les cas, elle donne Vemplacement de la 
droite limite (d) qui sépare les deux populations. Calcul du 
nombre de spécimens mal classés, Propriété de la droite (d). 
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